講義資料

メイン資料

今日の資料はコチラから.

スマホで見る方はQRコードを読み込んでください

前回の復習

質問項目の作成

  • こちらのリストに書き込みましょう.
    • 質問項目リストを完成させましょう.
  • 以下コードを各自でコピペしておいてください.
library(readr)
library(ggplot2)
library(dplyr)
exdataset <- read_csv("../data/exdataset.csv")

## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))

## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))

## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))

t検定

t検定とは2群の「平均値」を比較する方法です.しかし,実はこれも一般線形モデルの枠組みの中で考えることが出来ます.ここではその考え方について説明します.そこには「ダミー変数」という考え方が必要になります.

ダミー変数とは

一般線形モデルではこんなモデル式から考える,というような話をしたかと思います.

\[Y_i=\beta_1 X_1 + \alpha+\epsilon_i \]

回帰分析ではY_iとX_1が数値データだった場合を示していました.しかし,例えばX_1に入れたいのが未婚者か既婚者,という因子データだったとします.この場合は,未婚者に対して0,既婚者に対して1という数字を割り当てると以下のように理解することができます.

  • 0を割り振られた未婚者の場合

数式の\(X_1\)に0を代入しましょう.
\[Y_i=\alpha+\epsilon_i \] こうすると,係数がなくなってしまいました.従って切片のみになります.

  • 1を割り振られた既婚者の場合

数式の\(X_1\)に1を代入しましょう.
\[Y_i=\beta_1 + \alpha+\epsilon_i \]

こうすると,$X_1$の係数のみが増えています.したがって,0を代入した未婚者に比べて,既婚者の方が$\beta_1$の分だけ変化していることがわかります.

このように,0か1の数字を入れてあげると0を入れられたグループと1を割り振られたグループでどれだけ差があるのか,ということを評価することができます.
そして,その「差」がどの程度あるのかも比較することができます.ここでは,主観的幸福度に未婚者と既婚者の間に差があるのか否かを,先ほどと同じような流れで考えていきましょう.

仮説を立てる

t検定に当たるのは2つの群に差があるのか否か,です.「差がある」を対立仮説,「差があるとはいえない」を帰無仮説とします.したがって,以下のような仮説を立てることが出来ます.

  • 対立仮説:未婚者と既婚者の主観的幸福度に差がある.
  • 帰無仮説:未婚者と既婚者の主観的幸福度に差があるとはいえない.

#####平均値をプロットする

はじめに,分析対象となるデータを読み込んでおきましょう.

これは前回のをそのままコピペしていただいてかまいません.

さて,例によってggplotguiを使いましょう.

以下のコードはConsole(コンソール)に直接打ち込みます.

library(ggplotgui)
ggplot_shiny(exdataset)

そうすると新しいウィンドウが開きます.

以下の通りの作業をしましょう.

  • ggplotタブへ
  • Type of graph:”は“Dot + Error”,Y-variableは“SUB_HAP”,X-variableは“MAR”を設定
  • Confidence Interval:”を95%にする.
  • R-codeタブへ行って,以下のコードのうち,真ん中のみを以下にする. -また,コード内のdfdatasetに変える.

0は未婚者を,1は既婚者を示しています.

これも同様に,本当に差があるのかどうかは,感覚的には明らかになっても科学的な根拠がありません.同じように検定をして確かめてみましょう.

t検定をやってみる

Call:
lm(formula = SUB_HAP ~ MAR, data = exdataset)

Residuals:
    Min      1Q  Median      3Q     Max 
-6.6538 -1.6538  0.3462  1.3462  4.9391 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   5.0609     0.1115   45.41   <2e-16 ***
MARMarried    1.5929     0.1450   10.99   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.212 on 961 degrees of freedom
Multiple R-squared:  0.1116,    Adjusted R-squared:  0.1106 
F-statistic: 120.7 on 1 and 961 DF,  p-value: < 2.2e-16

さて,この分析結果の見方は基本的なところは回帰分析と一緒です.特に着目すべきはCoefficientsのところなので,こちらについて説明します.


## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   5.0609     0.1115   45.41   <2e-16 ***
## MAR           1.5929     0.1450   10.99   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

この結果について,またモデル式と共に説明します.この結果は\(\alpha\) が5.0609,\(\beta\) が1.5929という結果でした.したがって,モデル式は以下のように示すことができます.

\[Y_i=1.59291 X_1 + 5.0609+\epsilon_i \]

まずは係数について説明します.これは未婚者の場合と既婚者の場合について考えたいと思います.

未婚者の場合

未婚者の場合はX_1が0でした.したがって,以下のように示されます.

\[Y_i= 5.0609+\epsilon_i \]

すなわち,未婚者の平均値の予測は5.0509であると推定されます.

既婚者の場合

既婚者の場合はX_1が1でした.したがって,以下のように示されます.

\[Y_i=1.59291 + 5.0609+\epsilon_i \]

したがって,平均値は6.65381であると推定されます.

また,これらの推定値の妥当性はp値によって推定されます.いずれの結果についても0.001%以下であるためにこの結果は統計的にも明らかな差があると理解できます.したがって,未婚者に比べて,既婚者の主観的幸福度は明らかに高いと理解することができます.この結果を簡単にまとめましょう.

結果をきれいに表記しよう.
  • パッケージpanderの中にある関数panderを使うと,結果がわかりやすく表示されます.
Fitting linear model: SUB_HAP ~ MAR
  Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.061 0.1115 45.41 2.223e-241
MARMarried 1.593 0.145 10.99 1.571e-26
  • 他にもパッケージhuxtableの中にhuxregという関数があります.
(1)
(Intercept) 5.061 ***
(0.111)   
MARMarried 1.593 ***
(0.145)   
N 963        
R2 0.112    
logLik -2130.084    
AIC 4266.168    
*** p < 0.001; ** p < 0.01; * p < 0.05.
  • パッケージcoefplotを使って,各係数の大きさをグラフで示しておこう.
    • 特にこれから重回帰分析などを学ぶ上で知っておくと便利です.

  • パッケージstargazerの中にあるstargazerという関数を使うとxls形式で出力できます.

<table style="text-align:center"><caption><strong>分析結果</strong></caption>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td><em>Dependent variable:</em></td></tr>
<tr><td></td><td colspan="1" style="border-bottom: 1px solid black"></td></tr>
<tr><td style="text-align:left"></td><td>SUB_HAP</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">MARMarried</td><td>1.593<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.145)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">Constant</td><td>5.061<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.111)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>963</td></tr>
<tr><td style="text-align:left">R<sup>2</sup></td><td>0.112</td></tr>
<tr><td style="text-align:left">Adjusted R<sup>2</sup></td><td>0.111</td></tr>
<tr><td style="text-align:left">Residual Std. Error</td><td>2.212 (df = 961)</td></tr>
<tr><td style="text-align:left">F Statistic</td><td>120.686<sup>***</sup> (df = 1; 961)</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"><em>Note:</em></td><td style="text-align:right"><sup>*</sup>p<0.1; <sup>**</sup>p<0.05; <sup>***</sup>p<0.01</td></tr>
</table>
  • 作業フォルダの中に“marhap_model.xls”というファイルができていますので,そちらを開いてください.
    • 注意画面が出てきますが,「気にせずに開く」を選んでください.

普通のt検定

今までは一般線形モデルの枠組みからt検定の紹介を,すなわちダミー回帰分析の1つとしてのt検定を紹介しました.一方で,普通のt検定は以下のように行うことができます.

  • ここだけの話. 最近はt検定にもいろいろな方法が提案されています.従来は等分散性を検定するF検定を実施し後に,等分散を仮定したスチューデント(Student)のt検定を行ったり,不等分散を仮定したウェルチ(Welch)のt検定を実施する,ということが行われてきました.

しかしながら,2回検定を行うことは「検定の多重性」の観点から問題ではないか,という指摘もあったりします.

そこで,最近ではF検定を実施せずに いきなりウェルチのt検定を行うことが多くなっています. その場合は,以下のように記述することになります.

ウェルチのt検定
Welch Two Sample t-test: SUB_HAP by MAR (continued below)
Test statistic df P value Alternative hypothesis
-10.85 808.3 1.03e-25 * * * two.sided
mean in group NotMarried mean in group Married
5.061 6.654
参考:スチューデントのt検定
Two Sample t-test: SUB_HAP by MAR (continued below)
Test statistic df P value Alternative hypothesis
-10.99 961 1.571e-26 * * * two.sided
mean in group NotMarried mean in group Married
5.061 6.654

ちなみに,スチューデントのt検定と一般線形モデルにおけるダミー変数を用いたt検定は結果が一致します.

これは一般線形モデルが等分散性を仮定していることによります.

今日のタスク

復習

みなさんには分析にRの関数,“lm”というのを使ってもらっています.授業では,以下の通りに使っています.イメージとしては,グラフを想像してもらって,説明変数は「X軸」,応答変数は「Y軸」をイメージしてもらうとわかりやすいかと思います.

    オブジェクト<-lm(応答変数 <- 説明変数, data = データセットの名前)
    これについて,回帰分析/t検定の時は以下のコードを使っています.
    summary(オブジェクト)
    これについて,分散分析の時は以下のコードを使っています.
    anova(オブジェクト)

1要因分散分析

分散分析とは

分散分析とは,「3群以上の平均値の差があるかどうか」を比較・分析するための方法です.ここでは「1元配置分散分析」および「2元配置分散分析」というものについて説明します.いずれについても,説明変数が因子データ,応答変数が数値(順序)データとなります.

  • 1元配置分散分析:「地域によって,主観的幸福度が異なる」などのような,1つの要因によって影響を受けるかどうかを分析する手法です.
  • 2元配置分散分析:「地域と未婚・既婚によって主観的幸福度が異なる」,「地域と子の有無によって主観的幸福度が異なる」などのような,2つの要因によって影響を受けるかどうかを分析する手法です.

分散分析を一般線形モデルの枠組みで説明すると,以下のように理解することができます.ここでは,「3つの群の影響を受ける」場合について,モデル式を元に説明したいと思います.

\[ Y_i=\beta_1 X_1 +\beta_2 X_2 + \alpha+\epsilon_i \]

このモデルでは,$ X_1 $と $ X_2 $ はそれぞれ(1, 0)の値を取る「ダミー変数」です.しかし,これでは$ $ が2つしかありません.しかし,これだけで3つの群を表すことができます.以下には3つの条件についてモデル式を書き入れてあげたいと思います.

  • $ X_1 =1 $ と$ X_2 =0 $の場合 \[ Y_i=\beta_1 X_1 + \alpha+\epsilon_i \]
    • この場合,ある因子\(X_1\) によって,傾きが変化することを示しています.
  • $ X_1 =0 とX_2 =1 $の場合 $$ Y_i=_2 X_2 + +_i $
    • この場合,ある因子\(X_2\) によって,傾きが変化することを示しています.
  • $ X_1 =0 とX_2 =0 $の場合 \[ Y_i= \alpha+\epsilon_i \]
    • この場合,全ての要因が影響しない場合(何らかの基準となる点)の値を示していることになります.

このモデルについて,平均値が異なるかどうかを調べます.特に,分散分析の場合は「分散分析表」と呼ばれるものを出して評価してあげます.

分散分析の例

  • テストの点数がクラスによって異なる.
    • $ X_1 =1 \(と\) X_2 =0 $:Bクラス
      • $ X_1 =0 \(と\) X_2 =1 $:Cクラス
      • $ X_1 =0 \(と\) X_2 =0 $:Aクラス
  • このモデル式からわかること:Aクラスに比べてBクラス/Cクラスの得点がどう変化するか

仮説を立てる

さて,それでは仮説を立ててみましょう.今回分析するテーマは「主観的幸福度(SUB_HAP)が地域(SUB_ARE)によって異なる」かどうかを分析します.一要因分散分析の場合は以下のような仮説を立てます.

  • 対立仮説:主観的幸福度の平均値は地域によって異なる.
  • 帰無仮説:主観的幸福度の平均値は地域によって異なるとは言えない.

この2つの仮説のもとに分析を行ないます.

分析のモデル式

 今回の分析には,以下のモデルを前提とします.   \[(主観的幸福度)=\beta_1 (北海道ダミー) +\beta_2 (東北ダミー) +\beta_3 (中部ダミー)+\beta_4 (近畿ダミー) +\beta_5 (中国ダミー)+\beta_6 (四国ダミー)+\beta_7 (九州ダミー) + \alpha+\epsilon_i \]

なお,このモデルではそれぞれの値は1か0の値しか取りません.

例えば,東北地方のデータである場合には,東北ダミーが1,それ以外のダミー変数は0を取ります.また,すべてのダミー変数が0の場合はコントロール群となる関東地方を示しています.

平均値をプロットする

さて,例によってggplotguiを使いましょう.

以下のコードはConsole(コンソール)に直接打ち込みます.

library(ggplotgui)
ggplot_shiny()

そうすると新しいウィンドウが開きます.

以下の通りの作業をしましょう.

  • Data upload”をクリック
  • datasetをコピーする
  • Paste Data”にペーストをする
  • ggplotタブへ
  • Type of graph:”は“Dot + Error”,Y-variableは“SUB_HAP”,X-variableは“ARE”を設定
  • Confidence Interval:”を95%にする.
  • R-codeタブへ行って,以下のコードのうち,真ん中のみを以下にする. -また,コード内のdfdatasetに変える.

そうすると,こんなグラフが算出されます.

このグラフを見る限り,地域ごとに差があるかどうかはわかりません.以前,平均値を算出してみたことがありましたが,今回はそれぞれが「統計的に差がある」ということが言えるかどうかを考えたいと思います. %分散分析表の読み方をもう少し説明する.

##分散分析をやってみる さて,分散分析をしてみましょう.

Df Sum Sq Mean Sq F value Pr(>F)
7 75.1      10.7  1.96 0.0573
955 5.22e+03 5.46          
Call:
   aov(formula = arehap_model)

Terms:
                     ARE Residuals
Sum of Squares    75.066  5218.929
Deg. of Freedom        7       955

Residual standard error: 2.337701
Estimated effects may be unbalanced
             Df Sum Sq Mean Sq F value Pr(>F)  
ARE           7     75  10.724   1.962 0.0573 .
Residuals   955   5219   5.465                 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Call:
lm(formula = SUB_HAP ~ ARE, data = exdataset)

Residuals:
    Min      1Q  Median      3Q     Max 
-6.5429 -1.4308  0.1515  1.9043  4.7813 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.095745   0.120558  50.563  < 2e-16 ***
AREHokkaido  0.447112   0.413125   1.082  0.27941    
ARETohoku   -0.876995   0.316105  -2.774  0.00564 ** 
AREChubu    -0.237637   0.226845  -1.048  0.29510    
AREKinki    -0.247260   0.218299  -1.133  0.25764    
AREChugoku   0.335025   0.314020   1.067  0.28629    
AREShikoku   0.293144   0.564036   0.520  0.60338    
AREKyushu   -0.008788   0.271909  -0.032  0.97422    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.338 on 955 degrees of freedom
Multiple R-squared:  0.01418,   Adjusted R-squared:  0.006954 
F-statistic: 1.962 on 7 and 955 DF,  p-value: 0.05729

この分散分析表の結果より以下のように結果を導き出すことが出来ます.

書き方
主観的幸福度は地域によって異なるかを分析した.その結果,F(7, 955)=1.9623(p< .10)であり,有意傾向にあることが示されている.したがって,主観的幸福度は居住地域によって異なる傾向にあることが示されている(モデル式の結果を入れてあげると良いでしょう).

さらに,モデル式による分析結果を出力しました.この結果が示しているのは以下のようなことです.

\[ (主観的幸福度)=0.447112*北海道-0.876995*東北 \] \[ -0.237637*中部-0.247260*近畿 \] \[ +0.335025*中国+0.293144*四国 \] \[ -0.008788*九州+6.095745 + \epsilon_i \]

分散分析表の読み方

分散分析表とは,分散分析の結果を示すものです."Df"は自由度を示しています. "Sum Sq"は平方和であり,"Mean Sq"は平均平方,"F value"はF値であり, "Pr(|F| )"はp値を示しています.ここでは細かい読み方については説明しませんので,様々な本を参考にしていただければ幸いです.

結果を文章にして書くのであれば,このように書けます.

今度はモデル式についても同じように出力してあげましょう.回帰分析やt検定と同じです.

結果をきれいに表記しよう.
  • パッケージpanderの中にある関数panderを使うと,結果がわかりやすく表示されます.
Fitting linear model: SUB_HAP ~ ARE
  Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.096 0.1206 50.56 2.84e-272
AREHokkaido 0.4471 0.4131 1.082 0.2794
ARETohoku -0.877 0.3161 -2.774 0.005639
AREChubu -0.2376 0.2268 -1.048 0.2951
AREKinki -0.2473 0.2183 -1.133 0.2576
AREChugoku 0.335 0.314 1.067 0.2863
AREShikoku 0.2931 0.564 0.5197 0.6034
AREKyushu -0.008788 0.2719 -0.03232 0.9742
Analysis of Variance Table
  Df Sum Sq Mean Sq F value Pr(>F)
ARE 7 75.07 10.72 1.962 0.05729
Residuals 955 5219 5.465 NA NA
  • 他にもパッケージhuxtableの中にhuxregという関数があります.
(1)
(Intercept) 6.096 ***
(0.121)   
AREHokkaido 0.447    
(0.413)   
ARETohoku -0.877 ** 
(0.316)   
AREChubu -0.238    
(0.227)   
AREKinki -0.247    
(0.218)   
AREChugoku 0.335    
(0.314)   
AREShikoku 0.293    
(0.564)   
AREKyushu -0.009    
(0.272)   
N 963        
R2 0.014    
logLik -2180.170    
AIC 4378.340    
*** p < 0.001; ** p < 0.01; * p < 0.05.
  • パッケージcoefplotを使って,各係数の大きさをグラフで示しておこう.
    • 特にこれから重回帰分析などを学ぶ上で知っておくと便利です.

  • パッケージstargazerの中にあるstargazerという関数を使うとxls形式で出力できます.

<table style="text-align:center"><caption><strong>分析結果</strong></caption>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td><em>Dependent variable:</em></td></tr>
<tr><td></td><td colspan="1" style="border-bottom: 1px solid black"></td></tr>
<tr><td style="text-align:left"></td><td>SUB_HAP</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">MARMarried</td><td>1.593<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.145)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">Constant</td><td>5.061<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.111)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>963</td></tr>
<tr><td style="text-align:left">R<sup>2</sup></td><td>0.112</td></tr>
<tr><td style="text-align:left">Adjusted R<sup>2</sup></td><td>0.111</td></tr>
<tr><td style="text-align:left">Residual Std. Error</td><td>2.212 (df = 961)</td></tr>
<tr><td style="text-align:left">F Statistic</td><td>120.686<sup>***</sup> (df = 1; 961)</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"><em>Note:</em></td><td style="text-align:right"><sup>*</sup>p<0.1; <sup>**</sup>p<0.05; <sup>***</sup>p<0.01</td></tr>
</table>

多重比較

分散分析ではある要因によって,ある結果が異なる(ex.地域によって主観的幸福度が異なる)ことはわかりますが,その要因の各因子の間に差があるのかどうか(ex.関東地方と近畿地方で主観的幸福度が異なる)まではわかりません.

この時,t検定を各要因間で繰り返せば...とも思われるかもしれませんが,複数回の仮説検定を行うことは有意水準を水増しすることにつながると言われています.すなわち,帰無仮説が正しい仮説であり採択しなければならない時に,棄却することにつながってしまいます.

そのような事態を避けるために,いくつかの修正案があります.古くには「ボンフェローニの修正」と言われている手法があります.これは比較を行う回数で有意水準を割る,ということを行ないます.例えば,t検定を20回行う場合には,5%水準を前提とすると5/20=0.0025%として評価するものです.しかし,これはあまりに対立仮説に厳しいものであるために,最近ではあまり使われていません.

一方,昨今では「ホルム法」という手法が比較的多く使われています.これはp値の水準が各要因によって異なる基準を適用するものです.最初に,N個の仮説を,p値を小さい順番に並べた上で,一番小さいものの有意水準をNで割ります.これで対立仮説を判断します.対立仮説がここで支持されるのであれば,問題ありません.しかし,帰無仮説が採択されるのであれば,第二順位の対立仮説をの有意水準を(N-1)で割ります...を繰り返します.

この授業では多重比較の枠組みについては「ウィリアムの方法」というのを採用します.これは一つのコントロール群があった上で,その他の要因との差異があるかどうかを検証する枠組みです.例えば,コントロール群となる関東地方に比べて,他の地方の主観的幸福度が高いか低いか,を明らかにすることができます.これは実は皆さんにアウトプットしてもらったモデル式の表から検討することが出来ます.

多重比較の方法

  • はじめに:多重比較を実施するためにはmultcompというパッケージが必要になります.
  • Bonferroni: なかなか良い関数がない&どうやら手で計算したほうが良いらしいので省略.

  • Tukey

     Simultaneous Tests for General Linear Hypotheses

Multiple Comparisons of Means: Tukey Contrasts


Fit: lm(formula = SUB_HAP ~ ARE, data = exdataset)

Linear Hypotheses:
                         Estimate Std. Error t value Pr(>|t|)  
Hokkaido - Kanto == 0    0.447112   0.413125   1.082   0.9541  
Tohoku - Kanto == 0     -0.876995   0.316105  -2.774   0.0908 .
Chubu - Kanto == 0      -0.237637   0.226845  -1.048   0.9615  
Kinki - Kanto == 0      -0.247260   0.218299  -1.133   0.9418  
Chugoku - Kanto == 0     0.335025   0.314020   1.067   0.9575  
Shikoku - Kanto == 0     0.293144   0.564036   0.520   0.9995  
Kyushu - Kanto == 0     -0.008788   0.271909  -0.032   1.0000  
Tohoku - Hokkaido == 0  -1.324107   0.491454  -2.694   0.1115  
Chubu - Hokkaido == 0   -0.684749   0.439390  -1.558   0.7509  
Kinki - Hokkaido == 0   -0.694372   0.435039  -1.596   0.7275  
Chugoku - Hokkaido == 0 -0.112088   0.490115  -0.229   1.0000  
Shikoku - Hokkaido == 0 -0.153968   0.678042  -0.227   1.0000  
Kyushu - Hokkaido == 0  -0.455901   0.464262  -0.982   0.9730  
Chubu - Tohoku == 0      0.639358   0.349733   1.828   0.5702  
Kinki - Tohoku == 0      0.629735   0.344251   1.829   0.5693  
Chugoku - Tohoku == 0    1.212019   0.411659   2.944   0.0567 .
Shikoku - Tohoku == 0    1.170139   0.623691   1.876   0.5367  
Kyushu - Tohoku == 0     0.868207   0.380511   2.282   0.2782  
Kinki - Chubu == 0      -0.009623   0.264660  -0.036   1.0000  
Chugoku - Chubu == 0     0.572661   0.347849   1.646   0.6950  
Shikoku - Chubu == 0     0.530781   0.583547   0.910   0.9825  
Kyushu - Chubu == 0      0.228848   0.310363   0.737   0.9950  
Chugoku - Kinki == 0     0.582284   0.342337   1.701   0.6582  
Shikoku - Kinki == 0     0.540404   0.580278   0.931   0.9800  
Kyushu - Kinki == 0      0.238472   0.304172   0.784   0.9928  
Shikoku - Chugoku == 0  -0.041880   0.622637  -0.067   1.0000  
Kyushu - Chugoku == 0   -0.343813   0.378781  -0.908   0.9828  
Kyushu - Shikoku == 0   -0.301932   0.602497  -0.501   0.9996  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Adjusted p values reported -- single-step method)
  • Dunnet

     Simultaneous Tests for General Linear Hypotheses

Multiple Comparisons of Means: Dunnett Contrasts


Fit: lm(formula = SUB_HAP ~ ARE, data = exdataset)

Linear Hypotheses:
                       Estimate Std. Error t value Pr(>|t|)  
Hokkaido - Kanto == 0  0.447112   0.413125   1.082   0.8878  
Tohoku - Kanto == 0   -0.876995   0.316105  -2.774   0.0381 *
Chubu - Kanto == 0    -0.237637   0.226845  -1.048   0.9033  
Kinki - Kanto == 0    -0.247260   0.218299  -1.133   0.8628  
Chugoku - Kanto == 0   0.335025   0.314020   1.067   0.8948  
Shikoku - Kanto == 0   0.293144   0.564036   0.520   0.9981  
Kyushu - Kanto == 0   -0.008788   0.271909  -0.032   1.0000  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Adjusted p values reported -- single-step method)
  • Williams

     Simultaneous Tests for General Linear Hypotheses

Multiple Comparisons of Means: Williams Contrasts


Fit: lm(formula = SUB_HAP ~ ARE, data = exdataset)

Linear Hypotheses:
          Estimate Std. Error t value Pr(>|t|)
C 1 == 0 -0.008788   0.271909  -0.032    1.000
C 2 == 0  0.040619   0.253406   0.160    1.000
C 3 == 0  0.149970   0.213920   0.701    0.842
C 4 == 0 -0.042804   0.174949  -0.245    0.998
C 5 == 0 -0.101892   0.160414  -0.635    0.881
C 6 == 0 -0.191759   0.156315  -1.227    0.478
C 7 == 0 -0.153666   0.154415  -0.995    0.638
(Adjusted p values reported -- single-step method)

今日のTake Home Messages

分散分析(一般線形モデルによる分散分析モデルによる分析)

  • 一般線形モデルによる分散分析モデル
    • ダミー変数が複数あるような状況を前提とする.
    オブジェクト<-lm(応答変数 <- 説明変数, data = データセットの名前)
    これについて,回帰分析/t検定の時は以下のコードを使っています.
    summary(オブジェクト)
    これについて,分散分析の時は以下のコードを使っています.
    anova(オブジェクト)

Rでデータを扱う時に注意すべきこと

  • 必ず数字/文字は半角で入力する.
  • 日本語は使わずにローマ字を使用する.
  • コメントアウト(コードではなく,関係ないメモを入れること)をするときは半角の「#」から始める.
    • メモする内容は全角でもよい.
  • ファイル名およびパスには決して全角の文字(ひらがな,カタカナ,漢字,全角スペースなど)を入れてはいけない.
    • 半角英数字だけにする.
  • 慌てずに落ち着いて操作すれば,決して難しくない.
    • 1つずつ落ち着いて作業することを心がける.
  • 「わからない」ことを恐れない
    • 周りの友人に聞いたり,教員に確認したりしよう.
  • 文字化け対策にこちら のp8以降を確認して設定しよう.

演習問題

問題

問題

演習問題1

“SUB_SAT”は生活満足度,“SUB_SLP”は睡眠満足度に関するデータであった(各10点尺度).これらを応答変数,地域を表す“ARE”を説明変数として,以下の2つの分析を実施せよ.

  • 生活満足度の地域差を分析せよ.
  • 睡眠満足度の地域差を分析せよ.

演習問題2

“SUB_SAT”は生活満足度,“SUB_SLP”は睡眠満足度に関するデータであった(各10点尺度).これらを応答変数,年代を表す“GEN”を説明変数として,以下の2つの分析を実施せよ.

  • 習慣的幸福度の年代差を分析せよ.
  • 生活満足度の年代差を分析せよ..
  • 睡眠満足度の年代差を分析せよ.

リアクションペーパー:

  • 授業で学んだことおよび感想を下記リンクからお答えください.

リアクションペーパー

ヒント

  • パッケージdplyrの関数filterを使います.
  • ある列の中にあるデータの名前を個別に指定する時には""(ダブルクォーテーション)で囲います.

データの概要

データ概要

ダウンロードはコチラから

変数名リスト

主観的指標

項目名 データタイトル 質問項目 回答
主観的幸福度 SUB_HAP 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* 0点「とても不幸せ」-10点「とても幸せ」
生活満足度 SUB_SAT あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? 0点「とても不満足」-10点「とても満足」
生活満足度 SUB_SLP あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? 0点「全く眠れていない」-10点「とても眠れている」

独裁者ゲーム

図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.

項目名 データタイトル 質問項目 回答
主観的幸福度 DIC_PAR Bさんが両親の場合 0ポイント-10ポイント
DG友人条件 DIC_FRI Bさんが友人の場合 0ポイント-10ポイント
DG他者条件 DIC_OTH Bさんが全く知らない他人の場合 0ポイント-10ポイント

最終提案ゲーム_提案者

図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.

項目名 データタイトル 質問項目 回答
最終提案提案者両親条件 ULT_PRO_PAR Bさんが両親の場合 0ポイント-10ポイント
最終提案提案者友人条件 ULT_PRO_FRI Bさんが友人の場合 0ポイント-10ポイント
最終提案提案者他者条件 ULT_PRO_OTH Bさんが全く知らない他人の場合 0ポイント-10ポイント

最終提案ゲーム_応答者

図を見て下さい. あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.

項目名 データタイトル 質問項目 回答
最終提案応答者両親条件 ULT_REC_PAR Bさんが両親の場合 0ポイント-10ポイント
最終提案応答者友人条件 ULT_REC_FRI Bさんが友人の場合 0ポイント-10ポイント
最終提案応答者他者条件 ULT_REC_OTH Bさんが全く知らない他人の場合 0ポイント-10ポイント

信頼ゲーム

図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.

項目名 データタイトル 質問項目 回答
信頼両親条件 TRU_PAR Bさんが両親の場合 0ポイント-10ポイント
信頼友人条件 TRU_FRI Bさんが友人の場合 0ポイント-10ポイント
信頼他者条件 TRU_OTH Bさんが全く知らない他人の場合 0ポイント-10ポイント

自然関連

以下の質問について4点満点でお答えください.

項目名 データタイトル 質問項目 回答
自然運命 SPN_UNM 何かの大きな力に自分の運命は動かされているように感じることがある. 1全くそう思わない-4非常にそう思う
自然感謝 SPN_THK 自然などの人間を超えた力に感謝の気持ちを持つことがある. 1全くそう思わない-4非常にそう思う
自然恐怖 SPN_FEA 自然などの人間を超えた力に恐れの気持ちを持つことがある. 1全くそう思わない-4非常にそう思う
自然生存 SPN_LIV 自然などの人間を超えた力によって,生かされていると思うことがある. 1全くそう思わない-4非常にそう思う
自然大切 SPN_IMP 自然は大切な存在である. 1全くそう思わない-4非常にそう思う

監視

以下の質問について4点満点でお答えください.

項目名 データタイトル 質問項目 回答
第2者被監視感 KAN_SEC 日常生活の中で,直接誰か(人間)に見られていると思うことがある. 1全くそう思わない-4非常にそう思う
第3者被監視感 KAN_THI 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. 1全くそう思わない-4非常にそう思う
超自然的被監視感 KAN_SUP 日常生活の中で,超自然的な存在に見られていると思うことがある. 1全くそう思わない-4非常にそう思う
第2者被監視感 KAN_PRD 無機物の中に,人間の表情のようなものを見出すことがある. 1全くそう思わない-4非常にそう思う
自然大切 KAN_KYK 人に対して共感をすることがある. 1全くそう思わない-4非常にそう思う

死後

以下の質問について4点満点でお答えください.

項目名 データタイトル 質問項目 回答
死後世界 DED_SHI 「死後の世界」が存在すると思いますか? 1全くそう思わない-4非常にそう思う
天国 DED_TEN 「天国」が存在すると思いますか? 1全くそう思わない-4非常にそう思う
地獄 DED_JIG 「地獄」が存在すると思いますか? 1全くそう思わない-4非常にそう思う
奇跡 DED_KIS 「奇跡」が存在すると思いますか? 1全くそう思わない-4非常にそう思う
天罰 DED_PUN 「天罰」が存在すると思いますか? 1全くそう思わない-4非常にそう思う

性行動

以下の質問についてお答えください.

項目名 データタイトル 質問項目 回答
性衝動 SEX_IMP,SEX_IMP_num(数値,欠損値有り) あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない.
自慰回数 SEX_MAS,SEX_MAS_nen(年間回数): あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」
性交渉回数 SEX_SEX,SEX_SEX_nen(年間回数) あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」
性衝動対象 SEX_OBJ あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない
天罰 SEX_NIN,SEX_NIN_cen(中央値) あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」
性情報開示 SEX_NNA 性情報に対して開示しなかった個数 上記5つについて答えたくないを選んだ個数

フェイスシート

あなたのことについて教えて下さい.

項目名 データタイトル 質問項目 回答
性別 F_SEX あなたの性別を教えて下さい. 1.男性, 2.女性,3.その他
世代 F_GEN あなたの年齢を教えて下さい. 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降
最終学歴 F_FGR あなたの最終学歴を教えて下さい. 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了
個人収入 F_INK,F_INK_cen(中央値,百万円) あなた個人の年収を教えて下さい. 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない
世帯収入 F_INS,F_INS_cen(中央値,百万円) あなたの世帯での収入の合計を教えて下さい. 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない
回答端末 F_TAN あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他
都道府県 PRE あなたのお住まいの県を教えて下さい. 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県
地域 ARE 都道府県から地域に変換 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県
未既婚 MAR あなたはご結婚されていますか? NotMarried:未婚,Married:既婚
子の有無 CHI あなたはお子さんがいらっしゃいますか? NoChild:いない,Child:いる
---
title: "データ解析論I第10講"
output: 
  flexdashboard::flex_dashboard:
    vertical-layout: scroll
    orientation: columns
    source_code: embed
    theme: journal
    toc: true
    toc_depth: 2
    fig_mobile: true
    highlight: pygments
    css: styles_customized.css
---

```{r setup, include=FALSE}
library(readr)
library(ggplot2)
library(dplyr)
exdataset <- read_csv("/Users/akira/Dropbox/Education/2019MEIJI/[3_Wed2]Data_Analytics/analysis/data/exdataset.csv")

## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))

## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))

## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))

```




# 講義資料

## メイン資料 {.tabset .tabset-fade}

### 今日の資料はコチラから.

スマホで見る方は**QRコード**を読み込んでください
### 前回の復習 #### 質問項目の作成 * *[こちらのリスト](https://docs.google.com/spreadsheets/d/1TNtBJdar2XiVRUFFK_5aTY-zReMA44iqWLXdx6L56HY/edit#gid=0)*に書き込みましょう. - 質問項目リストを完成させましょう. * 以下コードを各自でコピペしておいてください. ``` library(readr) library(ggplot2) library(dplyr) exdataset <- read_csv("../data/exdataset.csv") ## Reordering exdataset$ARE exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu")) ## Reordering exdataset$MAR exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married")) ## Reordering exdataset$CHI exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child")) ``` #### t検定 t検定とは2群の「平均値」を比較する方法です.しかし,実はこれも一般線形モデルの枠組みの中で考えることが出来ます.ここではその考え方について説明します.そこには「ダミー変数」という考え方が必要になります. ##### ダミー変数とは 一般線形モデルではこんなモデル式から考える,というような話をしたかと思います. $$Y_i=\beta_1 X_1 + \alpha+\epsilon_i $$ 回帰分析ではY_iとX_1が数値データだった場合を示していました.しかし,例えばX_1に入れたいのが未婚者か既婚者,という因子データだったとします.この場合は,未婚者に対して0,既婚者に対して1という数字を割り当てると以下のように理解することができます. * 0を割り振られた未婚者の場合 数式の$X_1$に0を代入しましょう. $$Y_i=\alpha+\epsilon_i $$ こうすると,係数がなくなってしまいました.従って切片のみになります. * 1を割り振られた既婚者の場合 数式の$X_1$に1を代入しましょう. $$Y_i=\beta_1 + \alpha+\epsilon_i $$ こうすると,$X_1$の係数のみが増えています.したがって,0を代入した未婚者に比べて,既婚者の方が$\beta_1$の分だけ変化していることがわかります. このように,0か1の数字を入れてあげると0を入れられたグループと1を割り振られたグループでどれだけ差があるのか,ということを評価することができます. そして,その「差」がどの程度あるのかも比較することができます.ここでは,主観的幸福度に未婚者と既婚者の間に差があるのか否かを,先ほどと同じような流れで考えていきましょう. ##### 仮説を立てる t検定に当たるのは2つの群に差があるのか否か,です.「差がある」を対立仮説,「差があるとはいえない」を帰無仮説とします.したがって,以下のような仮説を立てることが出来ます. * 対立仮説:未婚者と既婚者の主観的幸福度に差がある. * 帰無仮説:未婚者と既婚者の主観的幸福度に差があるとはいえない. #####平均値をプロットする はじめに,分析対象となるデータを読み込んでおきましょう. これは前回のをそのままコピペしていただいてかまいません. さて,例によってggplotguiを使いましょう. 以下のコードはConsole(コンソール)に直接打ち込みます. ``` library(ggplotgui) ggplot_shiny(exdataset) ``` そうすると新しいウィンドウが開きます. 以下の通りの作業をしましょう. * ggplotタブへ * "*Type of graph:*"は"*Dot + Error*",Y-variableは"*SUB_HAP*",X-variableは"*MAR*"を設定 * "*Confidence Interval:*"を95%にする. * R-codeタブへ行って,以下のコードのうち,真ん中のみを以下にする. -また,コード内の*df*を*dataset*に変える. ```{r} # You need the following package(s): library("ggplot2") # The code below will generate the graph: graph <- ggplot(exdataset, aes(x = MAR, y = SUB_HAP)) + geom_point(stat = 'summary', fun.y = 'mean') + geom_errorbar(stat = 'summary', fun.data = 'mean_se', width=0, fun.args = list(mult = 1.96)) + theme_bw() graph ``` ```{r} # If you want the plot to be interactive, # you need the following package(s): library("plotly") ggplotly(graph) ``` 0は未婚者を,1は既婚者を示しています. これも同様に,本当に差があるのかどうかは,感覚的には明らかになっても科学的な根拠がありません.同じように検定をして確かめてみましょう. ##### t検定をやってみる ```{r echo=TRUE} #"hapsat_model"というオブジェクトに,分析モデルを代入する. marhap_model<-lm(SUB_HAP ~ MAR, data = exdataset) #分析結果の要約を出力する summary(marhap_model) ``` さて,この分析結果の見方は基本的なところは回帰分析と一緒です.特に着目すべきはCoefficientsのところなので,こちらについて説明します. ``` ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 5.0609 0.1115 45.41 <2e-16 *** ## MAR 1.5929 0.1450 10.99 <2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ``` この結果について,またモデル式と共に説明します.この結果は$\alpha$ が5.0609,$\beta$ が1.5929という結果でした.したがって,モデル式は以下のように示すことができます. $$Y_i=1.59291 X_1 + 5.0609+\epsilon_i $$ まずは係数について説明します.これは未婚者の場合と既婚者の場合について考えたいと思います. ###### 未婚者の場合 未婚者の場合はX_1が0でした.したがって,以下のように示されます. $$Y_i= 5.0609+\epsilon_i $$ すなわち,未婚者の平均値の予測は5.0509であると推定されます. ###### 既婚者の場合 既婚者の場合はX_1が1でした.したがって,以下のように示されます. $$Y_i=1.59291 + 5.0609+\epsilon_i $$ したがって,平均値は6.65381であると推定されます. また,これらの推定値の妥当性はp値によって推定されます.いずれの結果についても0.001%以下であるためにこの結果は統計的にも明らかな差があると理解できます.したがって,未婚者に比べて,既婚者の主観的幸福度は明らかに高いと理解することができます.この結果を簡単にまとめましょう. ##### 結果をきれいに表記しよう. * パッケージpanderの中にある関数panderを使うと,結果がわかりやすく表示されます. ```{r echo=TRUE} library(pander) pander(marhap_model) ``` * 他にもパッケージhuxtableの中にhuxregという関数があります. ```{r echo=TRUE} library(huxtable) huxreg(marhap_model) ``` * パッケージcoefplotを使って,各係数の大きさをグラフで示しておこう. - 特にこれから重回帰分析などを学ぶ上で知っておくと便利です. ```{r echo=TRUE} library(coefplot) # インストールした覚えがない場合は`install.packages("coefplot")`をしておきましょう. coefplot(marhap_model) ``` * パッケージstargazerの中にあるstargazerという関数を使うとxls形式で出力できます. ```{r echo=TRUE} library(stargazer) stargazer(marhap_model, type = "html", align=TRUE, title = "分析結果", out = "marhap_model.xls") ``` * 作業フォルダの中に"marhap_model.xls"というファイルができていますので,そちらを開いてください. - 注意画面が出てきますが,「気にせずに開く」を選んでください. #### 普通のt検定 今までは一般線形モデルの枠組みからt検定の紹介を,すなわちダミー回帰分析の1つとしてのt検定を紹介しました.一方で,普通のt検定は以下のように行うことができます. * ここだけの話. 最近はt検定にもいろいろな方法が提案されています.従来は等分散性を検定するF検定を実施し後に,等分散を仮定したスチューデント(Student)のt検定を行ったり,不等分散を仮定したウェルチ(Welch)のt検定を実施する,ということが行われてきました. しかしながら,2回検定を行うことは「検定の多重性」の観点から問題ではないか,という指摘もあったりします. そこで,最近ではF検定を実施せずに いきなりウェルチのt検定を行うことが多くなっています. その場合は,以下のように記述することになります. ##### ウェルチのt検定 ```{r echo=TRUE} t.testmodel<-t.test(SUB_HAP ~ MAR, data = exdataset) pander(t.testmodel) ``` ##### 参考:スチューデントのt検定 ```{r echo=TRUE} t.testmodel<-t.test(SUB_HAP ~ MAR, data = exdataset, var.equal = T) pander(t.testmodel) ``` ちなみに,スチューデントのt検定と一般線形モデルにおけるダミー変数を用いたt検定は結果が一致します. これは一般線形モデルが等分散性を仮定していることによります. ### 今日のタスク #### 復習 みなさんには分析にRの関数,"lm"というのを使ってもらっています.授業では,以下の通りに使っています.イメージとしては,グラフを想像してもらって,説明変数は「X軸」,応答変数は「Y軸」をイメージしてもらうとわかりやすいかと思います. ``` オブジェクト<-lm(応答変数 <- 説明変数, data = データセットの名前) これについて,回帰分析/t検定の時は以下のコードを使っています. summary(オブジェクト) これについて,分散分析の時は以下のコードを使っています. anova(オブジェクト) ``` #### 1要因分散分析 #### 分散分析とは 分散分析とは,「3群以上の平均値の差があるかどうか」を比較・分析するための方法です.ここでは「1元配置分散分析」および「2元配置分散分析」というものについて説明します.いずれについても,説明変数が因子データ,応答変数が数値(順序)データとなります. * 1元配置分散分析:「地域によって,主観的幸福度が異なる」などのような,1つの要因によって影響を受けるかどうかを分析する手法です. * 2元配置分散分析:「地域と未婚・既婚によって主観的幸福度が異なる」,「地域と子の有無によって主観的幸福度が異なる」などのような,2つの要因によって影響を受けるかどうかを分析する手法です. 分散分析を一般線形モデルの枠組みで説明すると,以下のように理解することができます.ここでは,「3つの群の影響を受ける」場合について,モデル式を元に説明したいと思います. $$ Y_i=\beta_1 X_1 +\beta_2 X_2 + \alpha+\epsilon_i $$ このモデルでは,$ X_1 $と $ X_2 $ はそれぞれ(1, 0)の値を取る「ダミー変数」です.しかし,これでは$ \beta $ が2つしかありません.しかし,これだけで3つの群を表すことができます.以下には3つの条件についてモデル式を書き入れてあげたいと思います. * $ X_1 =1 $ と$ X_2 =0 $の場合 $$ Y_i=\beta_1 X_1 + \alpha+\epsilon_i $$ - この場合,ある因子$X_1$ によって,傾きが変化することを示しています. * $ X_1 =0 とX_2 =1 $の場合 $$ Y_i=\beta_2 X_2 + \alpha+\epsilon_i $ - この場合,ある因子$X_2$ によって,傾きが変化することを示しています. * $ X_1 =0 とX_2 =0 $の場合 $$ Y_i= \alpha+\epsilon_i $$ - この場合,全ての要因が影響しない場合(何らかの基準となる点)の値を示していることになります. このモデルについて,平均値が異なるかどうかを調べます.特に,分散分析の場合は「分散分析表」と呼ばれるものを出して評価してあげます. #### 分散分析の例 * テストの点数がクラスによって異なる. - $ X_1 =1 $と$ X_2 =0 $:Bクラス - $ X_1 =0 $と$ X_2 =1 $:Cクラス - $ X_1 =0 $と$ X_2 =0 $:Aクラス * このモデル式からわかること:Aクラスに比べてBクラス/Cクラスの得点がどう変化するか #### 仮説を立てる さて,それでは仮説を立ててみましょう.今回分析するテーマは「主観的幸福度(SUB_HAP)が地域(SUB_ARE)によって異なる」かどうかを分析します.一要因分散分析の場合は以下のような仮説を立てます. * 対立仮説:主観的幸福度の平均値は地域によって異なる. * 帰無仮説:主観的幸福度の平均値は地域によって異なるとは言えない. この2つの仮説のもとに分析を行ないます. ##### 分析のモデル式  今回の分析には,以下のモデルを前提とします.   $$(主観的幸福度)=\beta_1 (北海道ダミー) +\beta_2 (東北ダミー) +\beta_3 (中部ダミー)+\beta_4 (近畿ダミー) +\beta_5 (中国ダミー)+\beta_6 (四国ダミー)+\beta_7 (九州ダミー) + \alpha+\epsilon_i $$ なお,このモデルではそれぞれの値は1か0の値しか取りません. 例えば,東北地方のデータである場合には,東北ダミーが1,それ以外のダミー変数は0を取ります.また,すべてのダミー変数が0の場合はコントロール群となる関東地方を示しています. #### 平均値をプロットする さて,例によってggplotguiを使いましょう. 以下のコードはConsole(コンソール)に直接打ち込みます. ``` library(ggplotgui) ggplot_shiny() ``` そうすると新しいウィンドウが開きます. 以下の通りの作業をしましょう. * "*Data upload*"をクリック * datasetをコピーする * "*Paste Data*"にペーストをする * ggplotタブへ * "*Type of graph:*"は"*Dot + Error*",Y-variableは"*SUB_HAP*",X-variableは"*ARE*"を設定 * "*Confidence Interval:*"を95%にする. * R-codeタブへ行って,以下のコードのうち,真ん中のみを以下にする. -また,コード内の*df*を*dataset*に変える. ```{r echo=TRUE} # You need the following package(s): library("ggplot2") # The code below will generate the graph: graph <- ggplot(exdataset, aes(x = ARE, y = SUB_HAP)) + geom_point(stat = 'summary', fun.y = 'mean') + geom_errorbar(stat = 'summary', fun.data = 'mean_se', width=0, fun.args = list(mult = 1.96)) + theme_bw() ``` そうすると,こんなグラフが算出されます. ```{r echo=TRUE} graph ``` このグラフを見る限り,地域ごとに差があるかどうかはわかりません.以前,平均値を算出してみたことがありましたが,今回はそれぞれが「統計的に差がある」ということが言えるかどうかを考えたいと思います. %分散分析表の読み方をもう少し説明する. ##分散分析をやってみる さて,分散分析をしてみましょう. ```{r echo=TRUE} arehap_model<-lm(SUB_HAP ~ ARE, data = exdataset)#"hapsat_model"というオブジェクトに,分析モデルを代入する. anova(arehap_model)#分散分析表 aov(arehap_model) # 原初的な分散分析 summary(aov(arehap_model)) # 分散分析表 summary(arehap_model) #分析結果の要約を出力する ``` この分散分析表の結果より以下のように結果を導き出すことが出来ます. ##### 書き方 主観的幸福度は地域によって異なるかを分析した.その結果,F(7, 955)=1.9623(p< .10)であり,有意傾向にあることが示されている.したがって,主観的幸福度は居住地域によって異なる傾向にあることが示されている(モデル式の結果を入れてあげると良いでしょう). さらに,モデル式による分析結果を出力しました.この結果が示しているのは以下のようなことです. $$ (主観的幸福度)=0.447112*北海道-0.876995*東北 $$ $$ -0.237637*中部-0.247260*近畿 $$ $$ +0.335025*中国+0.293144*四国 $$ $$ -0.008788*九州+6.095745 + \epsilon_i $$ #### 分散分析表の読み方 分散分析表とは,分散分析の結果を示すものです."Df"は自由度を示しています. "Sum Sq"は平方和であり,"Mean Sq"は平均平方,"F value"はF値であり, "Pr(|F| )"はp値を示しています.ここでは細かい読み方については説明しませんので,様々な本を参考にしていただければ幸いです. 結果を文章にして書くのであれば,このように書けます. 今度はモデル式についても同じように出力してあげましょう.回帰分析やt検定と同じです. ##### 結果をきれいに表記しよう. * パッケージpanderの中にある関数panderを使うと,結果がわかりやすく表示されます. ```{r echo=TRUE} library(pander) pander(arehap_model) pander(anova(arehap_model)) ``` * 他にもパッケージhuxtableの中にhuxregという関数があります. ```{r echo=TRUE} library(huxtable) huxreg(arehap_model) ``` * パッケージcoefplotを使って,各係数の大きさをグラフで示しておこう. - 特にこれから重回帰分析などを学ぶ上で知っておくと便利です. ```{r echo=TRUE} library(coefplot) # インストールした覚えがない場合は`install.packages("coefplot")`をしておきましょう. coefplot(arehap_model) ``` * パッケージstargazerの中にあるstargazerという関数を使うとxls形式で出力できます. ```{r echo=TRUE} library(stargazer) stargazer(marhap_model, type = "html", align=TRUE, title = "分析結果", out = "marhap_model.xls") ``` #### 多重比較 分散分析ではある要因によって,ある結果が異なる(ex.地域によって主観的幸福度が異なる)ことはわかりますが,その要因の各因子の間に差があるのかどうか(ex.関東地方と近畿地方で主観的幸福度が異なる)まではわかりません. この時,t検定を各要因間で繰り返せば...とも思われるかもしれませんが,複数回の仮説検定を行うことは有意水準を水増しすることにつながると言われています.すなわち,帰無仮説が正しい仮説であり採択しなければならない時に,棄却することにつながってしまいます. そのような事態を避けるために,いくつかの修正案があります.古くには「ボンフェローニの修正」と言われている手法があります.これは比較を行う回数で有意水準を割る,ということを行ないます.例えば,t検定を20回行う場合には,5%水準を前提とすると5/20=0.0025%として評価するものです.しかし,これはあまりに対立仮説に厳しいものであるために,最近ではあまり使われていません. 一方,昨今では「ホルム法」という手法が比較的多く使われています.これはp値の水準が各要因によって異なる基準を適用するものです.最初に,N個の仮説を,p値を小さい順番に並べた上で,一番小さいものの有意水準をNで割ります.これで対立仮説を判断します.対立仮説がここで支持されるのであれば,問題ありません.しかし,帰無仮説が採択されるのであれば,第二順位の対立仮説をの有意水準を(N-1)で割ります...を繰り返します. この授業では多重比較の枠組みについては「ウィリアムの方法」というのを採用します.これは一つのコントロール群があった上で,その他の要因との差異があるかどうかを検証する枠組みです.例えば,コントロール群となる関東地方に比べて,他の地方の主観的幸福度が高いか低いか,を明らかにすることができます.これは実は皆さんにアウトプットしてもらったモデル式の表から検討することが出来ます. #### 多重比較の方法 * はじめに:多重比較を実施するためにはmultcompというパッケージが必要になります. ```{r echo=TRUE} # install.packages("multcomp", dependencies=T) library(multcomp) # install.packages("mixlm", dependencies=T) library(mixlm) ``` * Bonferroni: なかなか良い関数がない&どうやら手で計算したほうが良いらしいので省略. * Tukey ```{r echo=TRUE} summary(glht(arehap_model, linfct = mcp(ARE="Tukey"))) ``` * Dunnet ```{r echo=TRUE} summary(glht(arehap_model, linfct = mcp(ARE="Dunnet"))) ``` * Williams ```{r echo=TRUE} summary(glht(arehap_model, linfct = mcp(ARE="Williams"))) ``` ### 今日のTake Home Messages #### 分散分析(一般線形モデルによる分散分析モデルによる分析) * 一般線形モデルによる分散分析モデル - ダミー変数が複数あるような状況を前提とする. ``` オブジェクト<-lm(応答変数 <- 説明変数, data = データセットの名前) これについて,回帰分析/t検定の時は以下のコードを使っています. summary(オブジェクト) これについて,分散分析の時は以下のコードを使っています. anova(オブジェクト) ``` ### Rでデータを扱う時に注意すべきこと * 必ず数字/文字は半角で入力する. * 日本語は使わずにローマ字を使用する. * コメントアウト(コードではなく,関係ないメモを入れること)をするときは半角の「#」から始める. - メモする内容は全角でもよい. * ファイル名およびパスには決して全角の文字(ひらがな,カタカナ,漢字,全角スペースなど)を入れてはいけない. - 半角英数字だけにする. * 慌てずに落ち着いて操作すれば,決して難しくない. - 1つずつ落ち着いて作業することを心がける. * 「わからない」ことを恐れない - 周りの友人に聞いたり,教員に確認したりしよう. * 文字化け対策に**[こちら](https://docs.google.com/document/d/1CYF6LeFeGV9dTWHGuznkO0Tm4RnhAu2KatdSqFn7bmU/edit)** のp8以降を確認して設定しよう. # 演習問題 ## 問題 {.tabset .tabset-fade} ### 問題 #### 演習問題1 "SUB_SAT"は生活満足度,"SUB_SLP"は睡眠満足度に関するデータであった(各10点尺度).これらを応答変数,地域を表す"ARE"を説明変数として,以下の2つの分析を実施せよ. * 生活満足度の地域差を分析せよ. * 睡眠満足度の地域差を分析せよ. #### 演習問題2 "SUB_SAT"は生活満足度,"SUB_SLP"は睡眠満足度に関するデータであった(各10点尺度).これらを応答変数,年代を表す"GEN"を説明変数として,以下の2つの分析を実施せよ. * 習慣的幸福度の年代差を分析せよ. * 生活満足度の年代差を分析せよ.. * 睡眠満足度の年代差を分析せよ. #### リアクションペーパー: * 授業で学んだことおよび感想を下記リンクからお答えください. **[リアクションペーパー](https://forms.gle/jhMGgdhyb3sMgpWm7)** ### ヒント * パッケージdplyrの関数filterを使います. * ある列の中にあるデータの名前を個別に指定する時には""(ダブルクォーテーション)で囲います. ```{r} ``` # データの概要 ### データ概要 ダウンロードは**[コチラ](https://akrgt.github.io/2019DA/data/exdataset.csv)**から ```{r} library(DT) DT::datatable(exdataset) ``` ### 変数名リスト #### 主観的指標 | 項目名 | データタイトル | 質問項目 | 回答 | | ------------ | -------------- | ------------------------------------------------------------ | ------------------------------------------------ | | 主観的幸福度 | SUB_HAP | 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* | 0点「とても不幸せ」-10点「とても幸せ」 | | 生活満足度 | SUB_SAT | あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? | 0点「とても不満足」-10点「とても満足」 | | 生活満足度 | SUB_SLP | あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? | 0点「全く眠れていない」-10点「とても眠れている」 | #### 独裁者ゲーム 図を見て下さい. あなたはAさんです. あなたはTポイントを10ポイントを受け取りました. そのうち,あなたはBさんに何ポイントかを渡すことができます. さて,あなたはBさんに何ポイント渡しますか? ここでは以下の条件の場合について教えて下さい. | 項目名 | データタイトル | 質問項目 | 回答 | | ------------ | -------------- | ----------------------------- | -------------------- | | 主観的幸福度 | DIC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント | | DG友人条件 | DIC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント | | DG他者条件 | DIC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント | #### 最終提案ゲーム_提案者 図を見て下さい. あなたはAさんです. あなたはTポイントを10ポイントを受け取りました. そのうち,あなたはBさんとポイントを分け合うことになりました. あなたは,Bさんに対して分け合うポイントを提案することができます. あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます. しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに, お互いポイントをもらえないことになります. さて,あなたはBさんに何ポイント渡すことを提案しますか? ここでは以下の条件の場合について教えて下さい. | 項目名 | データタイトル | 質問項目 | 回答 | | ---------------------- | -------------- | ----------------------------- | -------------------- | | 最終提案提案者両親条件 | ULT_PRO_PAR | Bさんが両親の場合 | 0ポイント-10ポイント | | 最終提案提案者友人条件 | ULT_PRO_FRI | Bさんが友人の場合 | 0ポイント-10ポイント | | 最終提案提案者他者条件 | ULT_PRO_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント | #### 最終提案ゲーム_応答者 図を見て下さい. あなたはBさんです. AさんはTポイントを10ポイントを受け取りました. Aさんが,あなたに対して分け合うポイントを提案します. Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます. しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに, お互いポイントをもらえないことになります. さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか? ここでは以下の条件の場合について教えて下さい. | 項目名 | データタイトル | 質問項目 | 回答 | | ---------------------- | -------------- | ----------------------------- | -------------------- | | 最終提案応答者両親条件 | ULT_REC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント | | 最終提案応答者友人条件 | ULT_REC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント | | 最終提案応答者他者条件 | ULT_REC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント | #### 信頼ゲーム 図を見て下さい. あなたはAさんです. あなたはTポイントを10ポイント持っています. いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します. Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します. この時,あなたはCさんにいくらあずけますか? ここではBさんが以下の条件の場合について教えて下さい. | 項目名 | データタイトル | 質問項目 | 回答 | | ------------ | -------------- | ----------------------------- | -------------------- | | 信頼両親条件 | TRU_PAR | Bさんが両親の場合 | 0ポイント-10ポイント | | 信頼友人条件 | TRU_FRI | Bさんが友人の場合 | 0ポイント-10ポイント | | 信頼他者条件 | TRU_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント | #### 自然関連 以下の質問について4点満点でお答えください. | 項目名 | データタイトル | 質問項目 | 回答 | | -------- | -------------- | ------------------------------------------------------------ | --------------------------------- | | 自然運命 | SPN_UNM | 何かの大きな力に自分の運命は動かされているように感じることがある. | 1全くそう思わない-4非常にそう思う | | 自然感謝 | SPN_THK | 自然などの人間を超えた力に感謝の気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う | | 自然恐怖 | SPN_FEA | 自然などの人間を超えた力に恐れの気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う | | 自然生存 | SPN_LIV | 自然などの人間を超えた力によって,生かされていると思うことがある. | 1全くそう思わない-4非常にそう思う | | 自然大切 | SPN_IMP | 自然は大切な存在である. | 1全くそう思わない-4非常にそう思う | | | | | | #### 監視 以下の質問について4点満点でお答えください. | 項目名 | データタイトル | 質問項目 | 回答 | | ---------------- | -------------- | ------------------------------------------------------------ | --------------------------------- | | 第2者被監視感 | KAN_SEC | 日常生活の中で,直接誰か(人間)に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う | | 第3者被監視感 | KAN_THI | 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う | | 超自然的被監視感 | KAN_SUP | 日常生活の中で,超自然的な存在に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う | | 第2者被監視感 | KAN_PRD | 無機物の中に,人間の表情のようなものを見出すことがある. | 1全くそう思わない-4非常にそう思う | | 自然大切 | KAN_KYK | 人に対して共感をすることがある. | 1全くそう思わない-4非常にそう思う | | | | | | #### 死後 以下の質問について4点満点でお答えください. | 項目名 | データタイトル | 質問項目 | 回答 | | -------- | -------------- | -------------------------------------- | --------------------------------- | | 死後世界 | DED_SHI | 「死後の世界」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う | | 天国 | DED_TEN | 「天国」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う | | 地獄 | DED_JIG | 「地獄」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う | | 奇跡 | DED_KIS | 「奇跡」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う | | 天罰 | DED_PUN | 「天罰」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う | | | | | | #### 性行動 以下の質問についてお答えください. | 項目名 | データタイトル | 質問項目 | 回答 | | ---------- | ---------------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ | | 性衝動 | SEX_IMP,SEX_IMP_num(数値,欠損値有り) | あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. | 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない. | | 自慰回数 | SEX_MAS,SEX_MAS_nen(年間回数): | あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 | | 性交渉回数 | SEX_SEX,SEX_SEX_nen(年間回数) | あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 | | 性衝動対象 | SEX_OBJ | あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. | 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない | | 天罰 | SEX_NIN,SEX_NIN_cen(中央値) | あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. | 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」 | | 性情報開示 | SEX_NNA | 性情報に対して開示しなかった個数 | 上記5つについて答えたくないを選んだ個数 | | | | | | #### フェイスシート あなたのことについて教えて下さい. | 項目名 | データタイトル | 質問項目 | 回答 | | -------- | -------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ | | 性別 | F_SEX | あなたの性別を教えて下さい. | 1.男性, 2.女性,3.その他 | | 世代 | F_GEN | あなたの年齢を教えて下さい. | 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降 | | 最終学歴 | F_FGR | あなたの最終学歴を教えて下さい. | 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了 | | 個人収入 | F_INK,F_INK_cen(中央値,百万円) | あなた個人の年収を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない | | 世帯収入 | F_INS,F_INS_cen(中央値,百万円) | あなたの世帯での収入の合計を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない | | 回答端末 | F_TAN | あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. | 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他 | | 都道府県 | PRE | あなたのお住まいの県を教えて下さい. | 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 | | 地域 | ARE | 都道府県から地域に変換 | 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県| | 未既婚 | MAR | あなたはご結婚されていますか? | NotMarried:未婚,Married:既婚 | | 子の有無 | CHI | あなたはお子さんがいらっしゃいますか? | NoChild:いない,Child:いる |